Các mạng neuron nhân tạo Học_sâu

Một số phương pháp học sâu thành công nhất là mạng neuron nhân tạo. Mạng neuron nhân tạo được lấy cảm hứng từ các mô hình sinh học năm 1959 được đề xuất bởi người đoạt giải Nobel David H. Hubel & Torsten Wiesel, 2 người đã tìm thấy hai loại tế bào trong vỏ não thị giác chính: các tế bào đơn giảncác tế bào phức tạp. Nhiều mạng neuron nhân tạo có thể được xem như là các mô hình ghép tầng của các tế bào loại lấy cảm hứng từ những quan sát sinh học.

Neocognitron của Fukushima giới thiệu các mạng neuron tích chập được đào tạo một phần bởi học không có giám sát với các đặc điểm được con người hướng dẫn trong mặt phẳng thần kinh. Yann LeCun...(1989) áp dụng truyền ngược có giám sát cho các kiến trúc như vậy. Weng... (1992) công bố các mạng neuron tích chập Cresceptron để nhậ dạng các đối tượng 3-D từ các hình ảnh có hậu trường lộn xộn và phân khúc của các đối tượng từ hình ảnh đó.

Một nhu cầu rõ ràng để nhận dạng các đối tượng 3-D nói chung là ít nhất là thay đổi tính bất biến và khả năng chịu biến dạng. Thăm dò Max (Max-pooling) xuất hiện lần đầu tiên được đề xuất bởi Cresceptron để kích hoạt mạng để chịu đựng được sự biến dạng từ nhỏ đến lớn theo một cách phân cấp, trong khi sử dụng tích chập. Thăm dò mã đã hoạt động tốt, nhưng không đảm bảo, dịch chuyển bất định ở mức điểm ảnh.

Với sự ra đời của thuật toán truyền ngược được khám phá ra một cách độc lập bởi nhiều nhóm trong thập niên 1970 và 1980, nhiều nhà nghiên cứu đã cố gắng để đào tạo các mạng neuron nhân tạo sâu có giám sát từ đầu, ban đầu với rất ít thành công. Luận văn tốt nghiệp cao đẳng của Sepp Hochreiter năm 1991 chính thức xác định lý do cho sự thất bại này là vấn đề biến mất gradient, ảnh hưởng đến các mạng nuôi tiến nhiều lớp và các mạng neuron hồi qui. Các mạng tái phát (hồi qui) được huấn luyện bằng cách trải chúng ra vào các mạng nuôi tiến rất sâu, nơi một lớp mới được tạo ra cho mỗi bước thời gian của một chuỗi đầu vào được xử lý bởi mạng này. Khi các sai số truyền từ lớp này sang lớp khác, chúng co lại theo cấp số nhân với số lượng lớp, ngăn cản điều chỉnh trọng số nơ ron, dựa trên những sai số này.

Để khắc phục vấn đề này, một số phương pháp đã được đề xuất. Một là thứ bậc đa cấp của mạng của Jürgen Schmidhuber (1992) cấp độ một được đào tạo trước tại một thời điểm bởi học không có giám sát, điều chỉnh bởi truyền ngược. Ở đây, mỗi cấp học một đại diện bị nén của các quan sát được đưa đến cấp độ tiếp theo.

Phương pháp khác là mạng bộ nhớ dài ngắn hạn (LSTM) của Hochreiter & Schmidhuber (1997). Trong năm 2009, các mạng LSTM đa chiều sâu đã chiến thắng ba cuộc thi ICDAR năm 2009 trong nhận dạng chữ viết tay, mà không có bất kỳ kiến thức sẵn có về ba ngôn ngữ để được học.

Sven Behnke vào năm 2003 dựa chỉ vào các dấu hiệu của gradient (Rprop) khi đào tạo Kim tự tháp Trừu tượng Nơ ron của mình để giải bài toán giống như tái tạo hình ảnh và định vị khuôn mặt.

Các phương pháp khác cũng sử dụng đào tạo trước không có giám sát để tạo ra một mạng nơ ron, khiến nó lần đầu tiên học được bộ dò đặc điểm nói chung là hữu ích. Sau đó mạng này được đào tạo tiếp tục bằng cách truyền ngược có giám sát để phân loại dữ liệu có dán nhãn. Mô hình sâu này của Hinton và các cộng sự (2006) liên quan đến việc học phân phối của một đại diện cao cấp bằng cách sử dụng các lớp kế tiếp của các biến tiềm ẩn nhị phân hoặc giá trị thực. nó sử dụng một máy Boltzmann hạn chế (Smolensky, 1986) để mô hình hóa mỗi lớp mới của các đặc điểm cao cấp hơn. Mỗi lớp mới đảm bảo một sự tăng trưởng trong biên thấp của kiểm tra tỷ lệ giống của dữ liệu, do đó tăng cường cho mô hình, nếu được huấn luyện đúng cách. Một khi đã đủ nhiều lớp đã được học, kiến trúc sâu có thể được sử dụng như là một mô hình thể sinh bằng cách tái tạo dữ liệu khi lấy mẫu xuống mô hình đó (một "sự vượt qua tổ tiên") từ các kích hoạt tính năng cấp đỉnh.Hinton báo cáo rằng các mô hình của mình là trích xuất các đặc điểm hiệu quả tính theo chiều cao, cấu trúc dữ liệu.

Nhóm Google Brain do Andrew NgJeff Dean đã tạo ra một mạng nơ ron học cách để nhận dạng được những khái niệm cao cấp hơn, chẳng hạn như con mèo, chỉ từ xem những hình ảnh không được dán nhãn từ các video trên YouTube.

Các phương pháp khác dựa trên sức mạnh xử lý vượt trội của các máy tính hiện đại, đặc biệt, là các GPU. Trong năm 2010, Dan Ciresan và các đồng nghiệp trong nhóm của Jürgen Schmidhuber tại Phòng thí nghiệp AI Thụy Sĩ IDSIA cho thấy rằng mặc dù "vấn đề biến mất gradient" nêu trên, thì với sức mạnh xử lý vượt trội của các GPU làm khiến cho đồng truyền ngược đơn giản trở nên khả thi đối với các mạng neuron nuôi tiến sâu với nhiều lớp. Phương pháp này tốt hơn tất cả các kỹ thuật máy học khác trong việc giải bài toán cũ nổi tiếng MNIST chữ số viết tay của Yann Le Cun và các đồng nghiệp tại NYU.

Cùng lúc đó, cuối năm 2009, học sâu đã thực hiện xâm nhập vào nhận dạng giọng nói, khi được đánh dấu bởi Hội thảo NIPS về học sâu trong nhận dạng giọng nói. Việc tăng cường hợp tác giữa các nhà nghiên cứu của Microsoft Research và đại học Toronto đã chứng minh vào giữa năm 2010 ở Redmond rằng các mạng neuron sâu giao tiếp với một mô hình Markov ẩn với các trạng thái phụ thuộc vào ngữ cảnh xác định lớp đầu ra của mạng neuron có thể giảm mạnh lỗi trong các tác vụ nhận dạng tiếng nói có vốn từ vựng lớn như tìm kiếm qua giọng nói. Cùng một mô hình mạng thần kinh sâu được chỉ ra cho quy mô lên đến các tác vụ cấp Tổng đài khoảng một năm sau đó tại Microsoft Research châu Á.

Tính đến năm 2011, tiến bộ trong các mạng nuôi tiến học sâu đã thay thế các lớp tích chập và các lớp thăm dò tối da (max-pooling), đứng đầu bởi một số lớp có đầy đủ kết nối hoặc kết nối từng phần theo sau bởi một lớp phân loại cuối cùng. Việc huấn luyện thường được thực hiện mà không có bất kỳ đào tạo trước không có giám sát nào. Từ năm 2011, các thực thi dựa trên GPU của hướng tiếp cận này đã thắng nhiều cuộc thi nhận dạng hình mẫu, bao gồm cuộc thi IJCNN 2011 Traffic Sign Recognition Competition, ISBI 2012 Segmentation of neuronal structures in EM stacks challenge, và các cuộc thi khác.

Các phương pháp học sâu có giám sát như vậy cũng đã là bộ nhậng dạng mô hình nhân tạo đầu tiên đạt được hiệu suất có thể cạnh tranh lại được với con người trong những công việc nhất định.

Để vượt qua những rào cản của AI yếu được đại diện bằng học sâu, cần phải để vượt qua các kiến trúc học sâu, bởi vì bộ não sinh học sử dụng cả mạch học nông và học sâu theo báo cáo của ngành giải phẫu não bộ chỉ ra một loạt các tính bất biến. Weng lập luận rằng não tự kết nối chủ yếu theo các thống kê tín hiệu và, do đó, một phân tầng nối tiếp không thể bắt tất cả các vật phụ thuộc thống kê chủ yếu. Các ANN đã có thể đảm bảo sự thay đổi bất biến để đối phó với các đối tượng tự nhiên lớn và nhỏ trong hậu trường có sự xáo trộn lớn, chỉ khi các bất định mở rộng vượt ra ngoài sự thay đổi, tới tất cả các khái niệm ANN đã học được, chẳng hạn như vị trí, loại (nhãn lớp đối tượng), quy mô, ánh sáng. Điều này được thực hiện trong các Mạng Phát triển (DN) có biểu hiện là Where-What Networks, WWN-1 (2008) cho đến WWN-7 (2013).